最近市場的不確定性很高,確實也很難做。目前市場上共識性比較強的就是光和儲存,應該說光的共識性是遠大於儲存的,儲存現在已經有很多的爭議了,上周儲存的回呼也比較大,即便市場都在解釋Google的那個TurboQuant論文,還是沒能擋住閃迪、三星、美光和鎧俠的大幅回呼, 甚至花旗還給出了下調美光的分析報告。這些都是AI Memory長周期的一部分,我們只需要知道當前Memory依舊稀缺,AI需求依舊旺盛即可。這篇文章,我們來看下,為什麼這波儲存周期被低估了。一個重度使用者每天要“吃掉”多少儲存先從最基本的問題開始:當一個程式設計師每天用 Claude Code 或者 Cursor 瘋狂寫程式碼時,背後的資料中心到底需要準備多少儲存空間?行業裡有個不成文的定義,日均消耗 1000 萬 tokens 的使用者,被稱為 Power User——重度使用者。這個數字聽起來很抽象,但換算成儲存需求就具體多了。整個計算鏈條是這樣的:1000 萬 tokens 對應大約 40MB 的純文字資料,這只是起點。這些文字需要被轉換成向量嵌入索引,用於 RAG 檢索,這一步會膨脹到 30GB 左右。再加上會話狀態、agent 執行日誌,以及出於安全考慮的三副本複製機制,最終一個重度使用者每天會產生 50 到 100GB 的 SSD 儲存需求。普通使用者呢?日均 100 萬 tokens,對應的儲存需求大約是 12GB,恰好是重度使用者的十分之一。這個比例關係在訪談中被反覆驗證,基本是個行業共識。有意思的地方在於並行場景。很多人的第一反應是:10 個重度使用者就是 500GB 到 1TB,100 個使用者就是 5TB 到 10TB。但實際情況要複雜一些。AI 系統通過“共享倉庫索引”機制,可以讓多個使用者共享基礎資料,只為每個使用者單獨儲存會話狀態。所以並行使用者的儲存需求增長不是線性的,而是被最佳化過的。但這個最佳化空間也是有限的。當 token 總需求持續上升,當越來越多的應用從單一 agent 變成多 agent 協作,儲存壓力就會快速累積。一個簡單的查詢,在 Claude Code 這樣的工具裡,可能會同時呼叫 4 到 5 個 agent,一個負責寫程式碼,一個負責審查,一個負責測試,一個負責最佳化。每個 agent 都有自己的狀態儲存需求,這就是為什麼程式設計 agent 的儲存消耗遠超普通對話應用。多模態時代的儲存爆炸如果說文字程式設計已經讓儲存需求翻了好幾番,那多模態應用帶來的衝擊就是另一個量級了。從文字到音訊,儲存需求增長 10 倍;從音訊到視訊,再增長 100 倍。一分鐘的視訊內容,儲存體積是同樣時長文字的 10000 倍。這不是危言聳聽。想想 Claude 的截圖分析功能,想想各種 AI 視訊生成工具,想想那些正在路測的自動駕駛系統。這些應用產生的資料,不僅體積龐大,而且全都是熱資料,必須隨時可以被快速讀取。這些資料能不能放到便宜的機械硬碟(HDD)裡?答案是不能。至少在推理場景下不能。HDD 只適合冷歸檔,比如你一年前在 Claude Code 裡問過的某個問題,如果長期不再訪問,系統可能會把它挪到 HDD。但當你需要呼叫這段歷史記錄時,就會明顯感覺到載入延遲。所有需要即時響應的資料,都必須放在 SSD 上。這是 AI 推理和傳統資料儲存的本質區別。儲存的四層金字塔如果把 AI 系統的儲存比作人的記憶系統,那麼它有四層結構,每一層都有自己的角色。最頂層是 HBM,高頻寬記憶體,直接焊在 GPU 上。這是最貴、最快、容量最小的那一層,專門用來儲存模型權重。一顆 H100 GPU 有 90GB 的 HBM,8 顆加起來也就 800GB 左右。這就是 AI 系統的“工作記憶”,處理眼前任務的核心空間。第二層是 DRAM,也就是伺服器記憶體。它的容量通常是 HBM 的 4 到 5 倍,主要用來儲存 KV cache——那些在對話過程中需要頻繁呼叫,但又不至於佔用 GPU 核心空間的資料。這是“短期記憶”,你今天跟 AI 說過的話,大機率就存在這裡。第三層是 SSD,容量從 1TB 到 15TB 不等,取決於伺服器配置。這是“長期記憶”,用來儲存 RAG 檢索需要的知識庫、使用者的歷史會話、agent 的執行狀態。雖然速度比 DRAM 慢,但容量大、成本相對可控,是推理場景下的主力儲存。第四層是 HDD,只在訓練資料歸檔和冷備份場景下出現。在推理環節,它基本是隱形的。一個兆參數的模型,如果用 INT4 精度運行,需要 500GB 的 HBM、700 到 800GB 的 DRAM,以及 5TB 的 SSD。這套配置可以跑到 1000 tokens 每秒的推理速度。至於這 1000 tokens/s 怎麼分配,可以是 1000 個使用者每人 1 token/s,也可以是 10 個使用者每人 100 tokens/s,完全取決於應用場景。這裡順便提一下 DeepSeek 的 engram 方法和 Google 的 TurboQuant 技術。它們的核心思路是把一些靜態的事實性知識從 DRAM 挪到 SSD,或者把 KV cache 壓縮 4 到 6 倍,從而釋放更多的 HBM 和 DRAM 空間。但都是Jevons 悖論,已經有很多人解釋過了,這裡不再贅述。200 到 300EB 的需求從那裡來現在我們把視角拉到整個行業。根據JPM的資料,2026 到 2027 年,全球超大規模雲服務商(Hyperscaler)的 SSD 需求預計會達到 200 到 300 EB。這是個什麼概念?如果按照前面算的重度使用者每天 100GB 來估算,200EB 可以支援 200 萬個重度使用者持續工作 1000 天。當然實際需求的構成要複雜得多。200 到 300EB 可以拆成下面幾個部分:訓練檢查點佔了 50% 到 60%。大模型訓練動輒幾個月,中間需要不斷保存 checkpoint,防止訓練中斷後從頭再來。這些 checkpoint 檔案體積驚人,而且必須用 SSD 儲存,因為恢復訓練時需要快速載入。RAG 資料湖佔 10% 到 15%。越來越多的企業開始把自己的知識庫接入 AI 系統,這些資料需要被向量化、索引化,然後儲存在高速儲存裡,隨時準備被檢索呼叫。剩下的部分,一部分是資料複製和安全備份(通常是三副本機制),一部分是多模態推理狀態——這是增長最快的那塊。更值得關注的是 AI 在整個 Memory 市場中的佔比變化。2023 年,AI 相關需求只佔 DRAM 總市場的 9%,到 2026 年這個數字會飆升到 37%,2028 年預計達到 53%。NAND 快閃記憶體的趨勢類似,從 2023 年的 2% 增長到 2026 年的 32%,2028 年預計 41%。換句話說,AI 正在從一個邊緣應用場景,變成 Memory 行業的主導力量。按照JPM的資料:2024 到 2028 年,AI DRAM 的價值 TAM(Total Addressable Market)年複合增長率是 105%,而非 AI DRAM 只有 51%。這是兩倍的增速差距。市場可能低估了幾個供給側的約束因素。比如 fab廠的物理空間限制,擴產不是想擴就能擴的;比如 HBM 的損耗率,每一代工藝升級都會帶來良率挑戰;比如 agent 應用的爆發,可能會帶來超預期的儲存需求;比如物理 AI(機器人、自動駕駛)的模型訓練和部署,需要的儲存量遠超純軟體 AI。從更長的時間維度看,AI 對 Memory 行業的改變不只是需求量的增長,更是商業模式的轉型。過去 Memory 是典型的 commodity(大宗商品),價格隨供需周期劇烈波動,廠商沒有定價權。但現在 HBM、SOCAMM、eSSD 這些產品越來越定製化,需要和客戶深度繫結,聯合設計,這就從 commodity 變成了 customized solution(定製化解決方案)。這種轉變如果能夠持續,Memory 廠商的利潤率中樞會被抬升,周期波動的幅度會被熨平,估值體系也會隨之重構。這才是這輪 AI 浪潮對 Memory 行業最深層的影響。最後放一個今天“HBM之父”的觀點,當然可能由於屁股決定腦袋,他的觀點比較激進,僅供大家參考。 (傅里葉的貓)